بهبود ویژگی ها با استفاده از الگوریتم های تکاملی برای بازشناسی مقاوم گفتار

thesis
abstract

متداول ترین و کاراترین ویژگی ها برای بازشناسی گفتار، ضرایب فرکانسی مل کپستروم هستند. این ویژگی ها از طریق اعمال تبدیل کسینوسی گسسته بر لگاریتم انرژیخروجی های بانک فیلترِ مِل بدست می آیند. تبدیل کسینوسی گسسته در حالت کلی در فشرده سازی و ناهمبسته سازی دادهها به صورت نیمه بهینه عمل می کند. این موضوع یکی از علل کاهش عملکرد ویژگی های مل کپستروم در محیطی است که نویزهای جمع پذیر وجود دارند. در این رساله پیشنهاد می شود که با جایگزینی توابع تخمینی حاصل از برنامه نویسی ژنتیک به جای تبدیل کسینوسی گسسته بر ضعف های یاد شده غلبه شود. پنج تابع برازش مختلف برای برنامه ریزی ژنتیک در این مقاله مورد استفاده قرار گرفته است. تابع اول با هدف تعامد لگاریتم انرژی خروجی های بانک فیلترِ مِل، تابع دوم با هدف دوم قطری سازی ماتریس کواریانس آن ها ، و تابع سوم برای افزایش پراکندگی بین کلاسی و کاهش پراکندگی درون کلاسی (معیار فیشر) مد نظر قرار گرفته است. تابع چهارم از ترکیب دو تابع اول و سوم مذکور در فوق و تابع پنجم از ترکیب توابع دوم و سوم به دست می آید. نتایج بدست آمده بر روی پایگاه داده گفتار aurora 2 نشان می دهد که هر پنج تابع پیشنهادی سبب افزایش دقت بازشناسی نسبت به روش استاندارد استخراج ضرایب مل کپستروم و نیز استفاده از آنالیز مولفه های اصلی به همراه این ضرایب می گردد. علاوه بر اینکه در بین این پنج تابع برازندگی، تابع پنجم که قطری سازی ماتریس کوواریانس لگاریتم های انرژی زیرباندهای مل را توام با معیار فیشر در نظر می گیرد، موفق تر از بقیه عمل می کند. افزایش متوسط درصد بازشناسی بر روی سه مجموعه دادگان aurora 2 به میزان 20% نسبت به ضرایب مل کپستروم گواهی بر این ادعا است.

similar resources

روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه

Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...

full text

طراحی فیلترهای توری پراشی با استفاده از الگوریتم های تکاملی

چکیده: فیلترهای توری پراشی نوع جدیدی از فیلترهای نوری هستند که بر مبنای تشدیدی مود هدایت­شده هستند و دارای کاربردهای روزافزونی در آشکارسازها، پردازشگرهای نوری، تزویج­کننده­ها و غیره هستند. هدف از طراحی این فیلترها انتخاب مناسب پارامترهای هندسی است. با انتخاب دقیق این پارامترها، فیلترهایی با بازدهی بالا در یک فرکانس رزونانس طراحی می­شوند. طراحی این فیلترها با ویژگی­های طیفی دقیق موضوعی جالب و در...

full text

بهبود نرخ بازشناسی گفتار در شرایط نویزی با استفاده از روش های غیرخطی تبدیل ویژگی

یکی از مراحل اصلی در روند بازشناسی گفتار، استخراج ویژگی ها می باشد. در حقیقت ویژگی های مربوط به نمونه های هر کلاس باید بگونه ای از کلاس های دیگر متمایز شده باشند که سیستم بازشناسی گفتار در شرایط مختلف مانند نویز نیز عملکرد مناسبی از خود نشان دهد. تبدیل ویژگی می تواند پس از استخراج ویژگی بکار رود تا به این متمایزسازی کمک نماید. روش های تبدیل ویژگی را می توان به دو گروه خطی و غیرخطی تقسیم نمود. و...

15 صفحه اول

بازشناسی مقاوم گفتار با استفاده از ویژگی‌ الگوهای زمانی به دست آمده از ساختار شبکه عصبی بهینه شده MTMLP

ویژگی‌ الگوهای زمانی سیگنال صوتی از دو حوزه زمانی و یا بردارهای بازنمایی شده قابل استخراج است. این ویژگی دربرگیرنده اطلاعات و مشخصات زمان بلند از تغییرات پیوسته واحدهای گفتاری است. در این مقاله، ویژگی الگوهای زمانی با استفاده از خروجی مقدار احتمال پسین واجی ساختار بهینه شده شبکه عصبی MTMLP، از مجموعه بردارهای بازنمایی مبتنی بر طیف (مانند ویژگی گفتاری‌ LFBE) و همچنین، مبتنی بر کپستروم (مانند ویژ...

full text

روش های اتصال گرای جدید بر گرفته از سامانه ادراک گفتار انسان به منظور بهبود بازشناسی گفتار ماشینی

بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی در انسان بسیار ابتدایی به نظر می رسد...

full text

بهبود کیفیت گفتار مبتنی بر بهینه‌سازی ازدحام ذرات با استفاده از ویژگی های ماسک گذاری سیستم شنوائی انسان

چکیده: در این مقاله، روش‌های دوکاناله جدید زیرفضایی سیگنال با استفاده از تکنیک‌های حذف نویز ادراکی برای بهبود کیفیت سیگنال گفتار پیشنهاد شده‌اند. روش‌های پیشنهادی از مشخصات ماسک‌گذاری سیستم شنوایی انسان برای کاهش نویز باقی­مانده قابل­شنیدن بهره می‌گیرند. روش تجزیه به مقادیر منفرد کسری ادراکی، تکنیک بهینه‌سازی ذرات را برای تخمین نویز جمعی استفاده می‌کند. نتایج شبیه‌سازی دقیقی که توسط دو معیار مخ...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی - پژوهشکده برق و کامپیوتر

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023